Day 19：測試不同模型對比

2025 iThome 鐵人賽

自我挑戰組

用 Dify 打造一個 AI 個人助理系列第 19 篇

17th鐵人賽

chia0990

2025-10-17 20:02:49

426 瀏覽

分享至

今天想更清楚知道不同模型的差別，所以我設計了一個小實驗，讓三個模型回答同一組問題，再觀察它們的「語氣、內容深度、回覆速度」。

我在 Dify 裡分別開了三個 App：

GPT-4o 版小助理
Gemini 1.5 Flash 版小助理
DeepSeek 版小助理
問它們同一題：「請用簡單的方式介紹 RAG 技術，並舉一個生活中的比喻。」

回答比較
GPT-4o：回答風格條理清楚；優點有層次感解釋最完整，比喻自然；缺點回答稍慢一點
Gemini 1.5：回答風格精簡直接、語氣溫和；優點回覆速度快、句子乾淨；缺點深度不夠，常少例子
DeepSeek：回答風格偏口語、很有人味；優點回答像朋友聊天；缺點有時會講錯技術細節
我又多問一題：「你覺得 AI 助理未來最重要的能力是什麼？」
三個模型給的答案也不太一樣：
•GPT-4o 講「理解與推理」；
•Gemini 提「快速學習與更新」；
•DeepSeek 則說「情感連結」。

我學到沒有哪個模型最好，要看用途。要準確、專業 → 用 GPT-4o。要快、輕量 → 用 Gemini。要自然、口語 → 用 DeepSeek。Dify 的好處就是能快速切換模型做測試，不用重建應用。

心得
今天的比較讓我更懂得怎麼「挑模型」。以前我都是隨便選，現在知道不同任務可以配不同模型。之後我想試試「混用」的方式，比如讓 GPT-4o 負責理解、再讓 DeepSeek 做語氣修飾，看看能不能做出更像人的助理。